Arbres de décision sur des données de type intervalle : évaluation et comparaison
نویسندگان
چکیده
Résumé. Le critère de découpage binaire de Kolmogorov-Smirnov nécessite un ordre total des valeurs prises par les variables explicatives. Nous pouvons ordonner des intervalles fermés bornés de nombres réels de différentes façons. Notre contribution dans cet article consiste à évaluer et à comparer des arbres de décision obtenus sur des données de type intervalle à l’aide du critère de découpage binaire de Kolmogorov-Smirnov étendu à ce type de données (Mballo et al. 2004). Pour ce faire, nous axons notre attention sur le taux d’erreur mesuré sur l’échantillon de test. Pour estimer ce paramètre, nous divisons aléatoirement chaque base de données en deux parties égales en terme d’effectif (à un objet près) pour construire deux arbres. Ces deux arbres sont d’abord testés par un même échantillon puis par deux échantillons différents.
منابع مشابه
Évaluation des critères asymétriques pour les arbres de décision
L’apprentissage supervisé sur données déséquilibrées fait l’objet de nombreux travaux (Provost (2000)). Pour le cas des arbres de décision, différents auteurs ont proposé d’utiliser des mesures d’entropie prenant en compte l’asymétrie pour la recherche du meilleur éclatement. Nous avons ainsi proposé une axiomatique permettant de définir une famille de mesures asymétriques (Zighed et al. (2007)...
متن کاملUn nouvel algorithme de forêts aléatoires d'arbres obliques particulièrement adapté à la classification de données en grandes dimensions
Résumé. L’algorithme des forêts aléatoires proposé par Breiman permet d’obtenir de bons résultats en fouille de données comparativement à de nombreuses approches. Cependant, en n’utilisant qu’un seul attribut parmi un sous-ensemble d’attributs tiré aléatoirement pour séparer les individus à chaque niveau de l’arbre, cet algorithme perd de l’information. Ceci est particulièrement pénalisant avec...
متن کاملSVM et visualisation pour la fouille de grands ensembles de données
Résumé. Nous présentons un algorithme de SVM et des méthodes graphiques pour le traitement de grands ensembles de données. Pour pouvoir traiter de tels ensembles de données, nous utilisons une représentation des données de plus haut niveau (sous forme symbolique). L’algorithme de séparateur à vaste marge (SVM) est adapté pour pouvoir traiter ce nouveau type de données. Nous construisons un nouv...
متن کاملSous-échantillonnage topographique par apprentissage semi-supervisé
Résumé. Plusieurs aspects pourraient influencer les systèmes d’apprentissage existants. Un de ces aspects est lié au déséquilibre des classes dans lequel le nombre d’observations appartenant à une classe, dépasse fortement celui des observations dans les autres classes. Dans ce type de cas assez fréquent, le système d’apprentissage a des difficultés au cours de la phase d’entraînement liées au ...
متن کاملLes index pour les entrepôts de données : comparaison entre index arbre-B et Bitmap
Résumé — Avec le développement des systèmes de décisionnel en générale et les entrepôts de données de manière particulière, il est devenu primordiale d’avoir une visibilité de la conception de l’entrepôt de données avant sa création, et cela vu l’importance de l’entrepôt de données qui se considère la source unique des données donnant sens à la décision. Dans un système de décisionnel, le bon f...
متن کامل